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Ceph 存储 系统 中 节点 的 容错 选择 算法 
夏 亚 楠 , 王 勇 


(桂林 电子 科技 大 学 计算 机 与 信息 安全 学 院 , 广 西 桂林 541004) 


摘 要 ;Ceph 分 布 式 系统 中 的 数据 分 布 算法 仅 将 容量 作为 选择 存储 节点 的 标准 ,并 未 考虑 存储 节点 的 网 络 状 态 和 节点 负 
载 。 在 副本 模式 下 , 当 三 副本 中 有 存储 节点 并 需要 修复 时 ,过 高 的 节点 负载 或 者 网 络 负载 会 导致 较 大 的 节点 修复 时 延 。 针 
对 这 个 问题 ,给 出 了 一 种 基于 Ceph 的 节点 容错 选择 (FTNSC) 算 法 。 首 先 利 用 软件 定义 网 络 技术 获得 实时 的 网 络 状 态 和 节 
点 负载 信息 ,作为 节点 选择 方法 的 数据 支撑 ;然后 建立 综合 考虑 节点 负载 信息 的 多 属性 决策 数学 模型 来 确定 主 存 储 节 点 位 
置 ;最 后 通过 人 工蜂 群 算法 根据 与 主 存储 节点 之 间 的 网 络 状 态 和 节点 性 能 得 到 最 优 次 存储 节点 。 实 验 结果 表明 ,与 现 有 的 
“CRUSH 算法 相 比 , 该 算法 在 提高 数据 存储 节点 性 能 的 同时 ,将 失效 数据 的 修复 时 延 减少 2% ~29.7%。 

s 键 词 :Ceph; 软件 定义 网 络 ; 多 属性 决策 ;人 工蜂 群 算法 ;副本 放置 ;容错 
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A fault tolerant nodes selection algorithm in Ceph storage System 
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torage nodes, and does not consider the network state and node load of storage nodes. In the replica mode, when a Storage 


Bde in the three replicas needs to be repaired, too high node load or network load will lead to a large node repair delay. To 


-Eablisched to Po the location of the primary storage node; Finally, the artificial bee colony algorithm is used to ob- 


(on the optimal secondary storage node according to the network state and node performance with the primary storage node. 
Experimental results show that compared with the existing methods, the proposed method can improve the performance of 
data storage nodes and reduce the data repair delay when nodes fail. 


Key words: Ceph; SDN; multiple attribute decision; artificial bee colony algorithm; replica placement; fault tolerant 


随 着 信息 化 的 普及 ,各 行 各 业 每 天 产生 的 数据 量 


当前 主流 的 软 硬 平台 


都 在 以 指数 级 的 速度 快速 增长 ,预计 到 2025 年 ,全 球 
数据 量 相 较 2016 年 将 增加 10 倍 趾 。 传 统 的 存储 模 
式 已 经 无 法 应 对 海量 数据 的 存储 需求 ,而 分 布 式 存储 
系统 通过 廉价 的 商用 硬件 较 好 地 解决 了 这 一 问题 , 目 
前 投入 商业 使 用 的 有 OpenStack Swift、Amazon 
EBS Ceph 等 由。 其 中 ,Ceph 因 具 有 可 扩展 性 、 高 性 
存储 以 及 适用 范围 广 的 优势 ,被 广泛 应 用 于 
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作为 分 布 式 对 象 存储 典型 代表 , Ceph 最 初 由 
Weil 等 开发 提出 ,十 多 年 间 已 经 有 超过 100 家 公司 
(机 构 ) 研 究 与 使 用 Ceph, 其 中 包括 欧洲 原子 能 研究 
组 织 、Yahoo、 阿 里 巴巴 等 。 同 时 由 于 不 同 的 应 用 场 
景 对 存储 系统 的 关注 点 不 同 , 吸 引 许 多 学 人 
系列 针对 Ceph 性 能 优化 的 研究 ,主要 包括 读 写 性 和 
优化 .节点 工作 负载 优化 、 存 储 数 据 分 布 的 优化 等 方 
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面 。 为 了 提高 Ceph 中 数据 的 读 写 性 能 ,Zhan 等 四 针 
对 librados 库 方法 ,应 用 2 种 多 线程 算法 来 优化 读 写 
性 能 ,使 得 大 文件 的 下 载 速度 和 小 文件 的 上 传 、 下 载 
速度 得 到 了 提升 ; Ceph 节点 工作 负载 方面 , Sevilla 
等 外 设计 了 可 编程 元 数据 存储 系统 ,将 策略 和 迁移 机 
制 分 离 , 可 以 满足 用 户 不 同 需求 时 节点 负载 均衡 ;在 
存储 节点 选择 方面 ,SHA 等 外 根据 Ceph 的 架构 和 
MapReduce 的 特性 ,提出 了 一 种 混合 整数 线性 规划 
方法 来 选择 最 优 的 存储 节点 ,解决 了 Ceph 存储 系统 
中 应 用 MapReduce 算法 配合 CRUSH 算法 进行 节点 
选择 时 系统 性 能 较 差 的 问题 。 但 是 这 些 对 Ceph 集 
群 数据 存储 位 置 选 择 策略 和 工作 负载 的 研究 并 未 考 
虑 节点 间 的 网 络 状态 信息 。 
本 SDN 作为 一 种 新 的 网 络 模型 ,解决 了 传统 的 网 
络 闫 态 测量 方法 存在 的 网 络 配置 复杂 且 资 源 消耗 较 
大 的 问题 中 。 目 前 SDN 在 网 络 状态 信息 测量 方面 的 
研 窜 有 : Harewood-Gill 等 四 针对 现 有 网 络 方法 无 法 
应 再 Qos 要 求 指数 增长 的 问题 ,提出 利用 SDN 综合 
考虑 时 延 和 带宽 的 Q-Routing 算法 来 选择 最 佳 路 径 ， 
该 算法 与 K-Shortest Path 算法 相 比 具有 更 快 的 路 径 
庄 惫 速度 ; Okwuibe 等 中 在 边缘 云 环境 下 提出 一 种 
基 书 SDN 的 资源 管理 模型 ,该 模型 对 内 存 .带宽 等 资 
源 济 行 集中 管理 ,并 自动 计算 不 同 条 件 下 的 最 佳 资源 
分 配方 案 ,根据 预定 义 的 约束 动态 调整 分 配 的 资源 ， 
降低 了 系统 的 部 署 成 本 ; 王 勇 等 四 设计 出 一 种 SDN 
与 (Ceph 结合 的 架构 ,利用 SDN 获取 的 信息 选择 ' 
能 最 优 OSD 的 方式 ,显著 提升 了 Ceph 的 读 性 外 
这 些 工 作为 在 Ceph 中 获取 网 络 状态 信息 来 进行 
点 亚 择 提供 了 有 力 依据 。 

虽然 国内 外 学 者 在 Ceph 性 能 优化 和 利用 SDN 
优化 网 络 存储 方面 取得 了 很 多 成 果 , 但 较 少 有 研究 从 
利用 SDN 获取 的 网 络 信息 来 增强 系统 容错 性 的 角度 
优化 Ceph 性 能 "中 。 因 此 ,考虑 Ceph 集群 中 节点 的 
负载 状况 ,结合 SDN 中 集中 控制 思想 ,给 出 一 种 提升 
集群 故障 节点 修复 性 能 的 节点 容错 选择 (fault-toler- 
ant node selection based on Ceph, 简称 FTNSC) 
算法 。 


1 Ceph 数据 修复 过 程 及 问题 描述 


Ceph 的 三 副本 模式 提供 了 良好 的 容错 性 ,使 得 
在 出 现 磁盘 故障 、 服 务 器 宕 机 等 故障 时 不 会 出 现 数据 
丢失 ,但 在 故障 发 生 后 仍 需 对 丢失 的 副本 数据 进行 修 
复 , 以 保证 数据 的 高 可 靠 性 ”… 。 按 照 是 否 能 够 依靠 
日 志 进 行 修复 ,Ceph 中 存在 2 种 修复 方式 :Recovery 
和 Backfill"。 考 虑 受 损 副本 能 够 通过 日 志 进 行 修 


度 


已 
bo 
-HL 


复 的 Recovery 过 程 。 根 据 受 损 副 本 存在 的 位 置 不 
同 ,Recovery 有 2 种 修复 的 方式 , 当 降 级 对 象 在 Pri- 
mary PG 上 时 ,Primary PG 所 在 主 OSD 会 通过 Pull 
方式 从 其 他 的 副本 拉 取 等 修复 对 象 的 权威 版 本 至 本 
地 完成 修复 ; 当 其 他 副本 存在 降级 对 象 时 , Primary 
PG 所 在 主 OSD 会 通过 Push 方式 主动 将 待 修复 对 
象 的 权威 版 本 推送 到 目标 副本 ,由 副本 完成 修复 。 
最 后 当 数 据 修复 工作 完成 后 ,副本 中 的 数据 恢复 一 
致 。 若 数据 放置 节点 的 负载 较 高 或 节点 间 网 络 状态 
较 差 ,将 会 影响 数据 修复 过 程 的 修复 时 延 。 

Ceph 中 数据 的 映射 过 程 如 图 1 所 示 , 从 图 1 可 
知 ,Ceph 将 数据 映射 到 OSD 上 主要 分 为 3 步 :1) 将 
文件 切 分 为 同等 大 小 的 多 个 对 象 ,每 个 对 象 获得 唯一 
的 ID, 记 为 oid。2) 利 用 哈 希 函数 对 每 个 oid 进行 哈 
希 运 算 , 得 到 的 结果 与 mask(mask 二 PGs 一 1) 值 按 位 
进行 与 操作 ,生成 PG 的 编号 pgid。3) 通 过 crush 算 
法 将 PG 映射 到 OSD 中 。 此 过 程 运算 如 式 (1) 所 示 。 


File 


(1)File->Objects->oid 
(2)HASH(o0id)&mask->pgid 
(3)CRUSH(pgid)->(OSD1,0SD2,…,OSD)) 


1 数据 映射 过 程 


CRUSH(pgid,CRUSH Map,CRUSH_ Rule) = 
( OSD ,OSD;, ,…, OSD, ),， (1) 
其 中 :CRUSH_Map 表示 保存 集群 拓扑 状态 等 信息 
的 映射 表 ;CRUSH_Rule 表示 副本 的 容错 规则 ,最 终 
得 到 存放 三 副本 的 3 个 OSD。 其 中 编号 最 小 的 为 
Primary OSD( 主 OSD) ,剩余 的 为 Replica OSD( 次 
OSD) 。 在 CRUSH 算法 中 ,CRUSH Maps 作为 记录 
存储 集群 的 层级 结构 与 副本 映射 以 及 节点 权重 的 参 
数 ,将 存储 容量 作为 权重 决策 的 唯一 因素 , 却 未 考虑 
节点 负载 和 网 络 状 态 对 于 集群 的 影响 ,这 会 导致 节点 
负载 过 高 或 网 络 性 能 很 差 的 节点 仍 会 被 选 为 存储 节 
点 ,影响 集群 的 整体 性 能 。 
根据 对 Ceph 发 生 故 障 时 的 数据 修复 过 程 和 节 
点 的 选择 算法 分 析 发 现 , 虽 然 Ceph 的 节点 选择 策略 
能 够 将 数据 均匀 地 分 布 在 集群 中 的 同时 ,也 保证 了 集 
群 的 稳定 性 和 灵活 性 ,但 是 由 于 CRUSH 过 程 将 节 
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点 的 剩余 存储 容量 作为 数据 映射 过 程 中 选择 主 次 0 D Cd) 


OSD 的 唯一 决定 因素 , 当 有 节点 发 生 故 障 时 较 高 的 
节点 负载 和 副本 之 间 较 差 的 网 络 状 态 会 导致 节点 的 
修复 时 延 较 长 ,后 续 故 障 会 导致 更 高 的 数据 丢失 概 
率 。 针 对 上 述 问题 ,综合 考虑 异 构 节 点 的 性 能 和 副本 
之 间 的 网 络 状态 ,建立 优化 Ceph 系统 性 能 的 存储 节 
点 选择 模型 ,以 期 在 节点 发 生 故 障 时 能 够 尽快 地 完成 
数据 修复 ,减少 发 生 数 据 损 坏 的 风险 。 


2 ”Ceph 分 布 式 存储 系统 的 节点 容错 选择 算法 


在 具有 N 个 OSD 节点 的 Ceph 集群 中 ,每 个 节 
点 最 多 可 存放 一 份 数 据 副 本 ,将 副本 数 设 为 3, 则 
Ceph 中 的 节点 容错 选择 问题 可 总 结 为 选择 合适 的 放 
车 数据 副本 的 OSD 集合 ,使 得 节点 出 现 故 障 时 ,最 小 
化 缉 点 的 数据 修复 时 延 。 根 据 对 节点 容错 选择 方法 的 
定 久 , 按 两 阶段 分 别 对 主 、 次 OSD 进行 选择 。 


副本 放置 问题 建 模 


-一 将 节点 故障 后 的 修复 时 延 定义 为 2 部 分 :节点 处 
理 时 延 和 数据 传输 时 延 , 具 体 模型 构建 过 程 如 图 2 
所 未 . 


,ED | 
LE] 


量化 节点 处 理 能 


计算 节点 间 路 
计算 节点 处 理 时 延 径 传 输 时 延 


数据 修复 时 延 


图 2 ”模型 构建 流程 


〇 对 于 节点 的 处 理 时 延 , 考 虑 节点 异 构 对 于 节点 数 
据 处 理 能 力 的 影响 ,采用 齐 凤 林 等 外 对 节点 处 理 能 
力 的 定义 。 考 虑 影响 节点 处 理 能 力 的 因素 有 CPU 
性 能 .IO 速率 内存 及 芯片 ,分 别 用 户 ,六 ,六 , 户 来 
表示 ,并 为 这 些 影响 因素 分 配 相应 的 权重 wi ,ws， 
wwi, 则 节点 i 的 处 理 能 力 可 表示 为 


C;= Dw,f,. (2) 
p=1 
假设 节点 N; 需要 人 处理 的 数据 量 为 D ,能 力 转 化 系数 
为 9, 则 节点 N; 对 数据 的 处 理 时 延 为 


D 
Ty 王 9 云 。 
Ni GC, 


对 于 数据 的 传输 时 延 ,参考 秦 华 等 "对 传输 时 
延 的 定义 ,将 传输 路 径 上 各 段 链 路 的 传输 时 延 之 和 作 


(3) 


e€EE(N, Ni 下 0。 

在 对 失效 节点 的 数据 进行 修复 时 ,若是 主 OSD 
故障 , 则 需要 从 次 OSD 拉 取 需要 修复 的 数据 到 本 地 ; 
若 次 OSD 发 生 故障 , 则 需 主 OSD 主动 将 数据 Push 
到 次 OSD, 整个 数据 修复 时 间 包 括 源 节点 和 目的 节 
点 的 处 理 时 间 以 及 数据 的 传输 时 间 : 

到 C; eEECNi Ni) by 和 Ci 

OSD 节点 数量 为 N 的 集群 中 ,节点 故障 修复 的 
时 间 消 耗 的 目标 函数 可 表述 为 整数 线性 规划 问题 : 


(5) 


min >) 2 Tpyx; 9 (6) 
iENjEN 
N 
Ss: DrsD; Zr,, (7) 
i=1 
N 
Dr; =2, i € (12 N) ， (8) 
j=1 
2 20; 一 1， (9) 


i€ENjEN 

p; E {OI} ViE NVI EN, (10) 

ry E (OI, ViENVIEN, (1) 
其 中 ,约束 条 件 (7) 中 x; 表示 节点 j 的 剩余 容量 , DD， 
表示 从 节点 i 传输 到 节点 7 的 数据 量 , 式 (7) 确 保 放 
置 副本 内 容 资源 请 求 不 超过 节点 的 剩余 容量 。 约 束 
条 件 (8) 表 示 共 有 2 个 节点 为 节点 i 的 数据 提供 副本 
访问 , 即 保证 每 份 数据 的 三 副本 存储 。 式 (9) 表 示 只 
考虑 单 点 故障 即 一 次 修复 操作 只 修复 一 个 失效 节点 。 
式 (10) 中 , 9; 为 二 进 制 决策 变量 , 当 yp; 值 为 1 时, 表 
示 节 点 i 将 修复 数据 发 往 节 点 j7, 对 节点 7 进行 故障 
修复 , 当 gp; 值 为 0 时 则 反之 。 式 (11) 中 , x; 表示 副 
本 放置 的 决策 , zy 二 1 时 表示 节点 7 为 节点 : 提供 
副本 访问 , 当 zz; 值 为 0 时 ,表示 节点 7 为 节点 提供 
副本 访问 。 


2.2 基于 多 属性 决策 的 主 OSD 选择 


根据 Ceph 数据 映射 过 程 可 知 , 在 Ceph 的 节点 
选择 中 仅仅 以 节点 的 剩余 存储 容量 作为 节点 被 选择 
的 权重 因子 。 对 此 在 考虑 节点 剩余 容量 的 基础 上 增 
加 节点 CPU IO ,芯片 3 个 指标 作为 节点 选择 的 权重 
因素 ,使 用 基于 理想 解 的 副本 选择 方法 确定 出 具有 最 
优 处 理性 能 的 节点 ,作为 副本 数据 存放 的 主 OSD。 
逼近 理想 解 排序 法 (technique for order prefer- 
ence by similarity to ideal solution, 简称 TOPSIS) 


为 端 到 端的 传输 时 延 , 设 下 (CNi, Ni) 为 六 点 Ni 与 
NN; 之 间 的 传输 路 径 ,2 为 路 径 带 宽 , 则 节点 Ni 与 Ni 
之 间 的 传输 时 延 为 


是 一 种 有 效 的 多 属性 决策 方案 ,该 方法 从 归 一 化 的 原 
始 数据 矩阵 中 构造 出 决策 问题 的 正 理想 解 和 负 理 想 
解 , 通 过 计算 各 方案 与 正 、 负 理想 解 的 距离 作为 评价 
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方案 的 准则 中 。 主 OSD 选择 算法 设计 如 下 : 越 大 ,表示 该 OSD 节点 的 性 能 越 好 。 在 CRUSH 算 


步骤 1 :决策 和 矩阵 构造 及 其 归 一 化 
设 基于 多 属性 决策 的 主 OSD 问题 中 有 m 个 节 
点 ,得 到 节点 方案 集 P 二 {Pi,P,,…,P,,), 每 个 节点 
有 4 个 属性 指标 ,构成 节点 属性 集 A == {Ai,A,,A;， 
1} ,决策 矩阵 构造 如 下 : 


Tx > a 加 a ( 1 2 ) 


i ml tm2 i m3 i m4 


对 式 (12) 所 示 决 策 矩 阵 进 行 归 一 化 : 


1 一 1,2,… 


,mm; 7 一 1,2,3,4。 


(13) 
步骤 2: 构 造 加 权 决 策 和 矩阵 

回 OSD 节点 的 CPU、IO\ 内 存 及 芯片 对 节点 处 理 
能 影响 是 不 同 的 ,对 于 相对 重要 的 属性 如 I/O 
分 配 较 大 的 权重 因子 ,每 个 属性 分 配 的 具体 权重 W; 
通过 实验 的 方式 获取 m1 。f 得 到 加 权 决 策 矩 阵 Z = 
二 … 7037 二 1,2,3,4 


(14) 


步骤 3: 确定 正 负 理 想 解 
= 2 二 max{(Z; 


J rl es 


7 | 
(15) 


分 =(Z, ,7, ,2Z, ) =min{Z; | J 2 


(16) 
其 中 , 2+ 表示 加 权 决 策 和 矩阵 的 正 理想 解 ,由 集群 中 
所 有 候选 节点 上 每 种 属性 的 最 大 值 构成 ; Z” 表示 加 
权 决 策 和 矩阵 的 负 理 想 解 , 由 集群 中 所 有 候选 节点 上 每 
种 属性 的 最 小 值 构成 。 

步骤 4: 计算 每 个 候选 
Di 、D; 。 


节点 到 正 负 理想 解 的 距离 


4 
Di 一 /2)(2;,—21)’, (17) 
j=1 
4 
D; = [22 Ze (18) 
步骤 5.: 计算 每 个 候选 节点 到 最 优 节 点 的 相对 贴 
近 度 。 
D; -一 oe. 
CY 一 下 二 天 和 一 世人 9777 ， (19) 
对 每 个 候选 节点 的 相对 贴近 度 C; 进行 排序 , C; 值 


法 进行 OSD 选择 的 过 程 中 考虑 异 构 节点 的 CPU、I/ 
O 内 存 和 芯片 ,选择 出 节点 性 能 最 优 的 节点 作为 存 
放 副 本 的 主 OSD。 


2.3 基于 人 工蜂 群 算法 的 次 OSD 选择 


FTNSC 算法 在 2. 2 节 得 到 的 节点 性 能 最 优 的 
主 OSD 基础 上 ,考虑 节点 性 能 以 及 与 主 OSD 之 间 的 
es 时 延 的 影 响 Re 不 人 节 
OsD 
人 工蜂 群 (artificial bee colony, 简称 ABC) 算 法 
是 一 种 模拟 蜂 群 寻找 蜜源 过 程 的 群体 智能 优化 算法 ， 
具有 结构 简单 .控制 参数 较 少 及 和 鲁 棒 性 强 等 特点 。 人 
工蜂 群 中 的 蜜蜂 分 为 3 种 :雇佣 蜂 、 跟 随 蜂 和 侦查 蜂 。 
3 种 蜜蜂 通过 分 工 协作 开采 蜜源 ,并 通过 蜜源 的 标记 
与 不 断 分 享 更 新 位 置 寻 找 最 优 蜜源 , 即 问题 的 最 优 
解 59 。 其 中 ,蜜源 的 位 置 对 应 优化 问题 的 一 个 可 行 
解 ,蜜源 的 守 量 对 应 适应 度 值 。 算 法 步骤 如 下 : 
1) 解 的 构造 和 编码 :基本 的 ABC 算法 适用 于 连 
续 型 论 域 ,并 不 适用 于 本 节点 选择 问题 的 整数 编码 方 
式 ,因此 将 其 进行 离散 化 处 理 。 假 设 集群 中 共有 N 
个 OSD 节点 , 主 OSD 的 数据 需要 选择 2 个 次 OSD 
进行 放置 , 则 解 的 构造 如 式 (20) 所 示 。 
XIE [Lzonyza 一 1 2N。 
(20) 


Ti 一 (Ziy7Z3》， 


其 中 : zx; 为 第 i 个 蜜源 , 即 第 i 个 节点 选择 方案 
表示 第 j 个 次 OSD 选择 为 编号 为 的 节点 存储 数 
据 ; zh zi 分 别 代表 集群 中 OSD 节点 编号 的 上 限 
和 下 限 。 如 编码 13， 17) ,表示 第 一 个 次 OSD 节点 选 
择 集群 中 id 二 3 的 节点 ,第 二 个 次 OSD 选择 集群 中 
id 一 3 的 节点 。 

2) 蜜 源 初始 化 阶段 : 设 有 Sw 个 蜜源 (x1 ,xs， 
“rs }, i 每 个 蜜源 xz; 一 
(zz zi ) 均 为 一 个 DD, 维 向 量 ,代表 一 个 初 
始 解 ，D， 设 为 2, i € {1,2,…,Sw), 则 初始 蜜源 为 

ZX! =round(z! ri (xiiax — Xlhin))o (21) 

其 中 : ~， E (0,1) 表示 (0,1) 内 均匀 分 布 的 随机 数 , 7 
€ (1， 2,. …,DD,) ,Th 、Xhn 代表 蜜源 初始 解 的 上 下 
限 。FTNSC 算法 采取 整数 编码 方式 ,在 基本 的 ABC 
算法 上 进行 改进 ,使 用 round() 函数 将 产生 的 蜜源 值 
取 整 。 若 式 (21) 产 生 的 初始 蜜源 不 能 满足 节点 选择 
的 限制 条 件 (7) 一 (11), 则 淘汰 此 解 重新 生成 新 解 。 

3) 确 定 适应 度 函 数值 :对 于 每 个 初始 解 , 根 据 式 
(22) 计 算 其 适应 度 值 ,判断 蜜源 的 优 劣 。 
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| es {CPU, [1, 90])， ee 265]}, {内 存 , [0.3， 

fit(x;) 一 a i) 76])，!{ 世 片 ,[0.5,23]) ,对 应 的 权重 分 别 为 30%， 


1++abs(fit(x,)), fit(x;) < 0。 
(22) 
设 选 择 出 来 的 最 佳 主 OSD 节点 编号 为 6,,, 则 基 
于 人 工蜂 群 算法 的 次 OSD 选择 算法 的 适应 度 函 数 表 
示 选 取 具 有 节点 处 理性 能 以 及 与 节点 5 之 间 网 络 状 
态 最 好 的 节点 作为 次 OSD, 来 减少 发 生 故 障 时 数据 
的 修复 时 延 。 


fit(x;) = 


人 


eEECNi Ni ,bs 2 C; 

4) 雇 佣 蜂 阶段 : 雇佣 蜂 在 蜜源 的 邻 域内 进 井 行 搜 
索 , 基 本 ABC 算法 根据 式 (24) 产 生 新 的 蜜源 。 
= v! 二 round(x! 十 rj (x! 一 Xx))。 (24) 
J RE (1,2,…,SNn),k 关 i 即 x4 是 不 同 于 x! 的 
蜜源 。 通过 round() 函 数 对 新 蜜源 取 整 , 否 新 蜜源 不 
是 满足 节点 选择 限制 条 件 的 可 行 解 , 则 根据 式 (24) 重 
半生 成 新 蜜源 ， 雇佣 蜂 根 据 贪 梦 原 则 进行 蜜源 选择 ， 
车 新 蜜源 的 适应 度 值 高 于 原 蜜源 ， 则 用 新 蜜源 蔡 换 原 蜜 
J 则 ,保持 原 蜜源 不 变 , 并 将 此 蜜源 的 开采 和 轮 数 加 1。 

、 4) 跟随 蜂 阶段 : 雇佣 蜂 完 成 邻 域 搜索 后 ,跟随 蜂 
毛 喀 到 雇佣 峰 分 享 的 信息 后 进行 进 一 步 开 采 ,通过 轮 
稚 风 算法 按 式 (25) 计 算 的 概率 选择 蜜源 ,蜜源 的 适应 
氏 铝 起 大 ， 被 跟随 蜂 选 择 的 概率 越 大 。 


f 
Pp, a (25) 


> fit(x;) 


二 5 侦查 峰 阶段 : 设 定 塞 源 的 开采 上 限 为 / 次 , 知 
a 又 过 ! 次 迭代 后 适应 度 值 仍 无 变化 , 则 为 了 防止 
陷入 局 部 最 优 ,将 此 蜜源 淘汰 ,用 式 (21) 产 生 的 新 蜜 
源 替换 。 

迭代 完成 后 ,将 适应 度 值 最 大 的 蜜源 作为 最 优 
解 ,得 到 存放 副本 的 2 个 次 OSD 节点 ,算法 结 


3 实验 设置 与 性 能 评估 


为 评估 FTNSC 算法 的 性 能 ,在 Mininet 网 络 
模拟 器 上 模拟 和 构建 Ceph 集群 拓扑 ,并 在 SDN 控 
制 器 Ryu”"" 上 部 署 FTNSC 算 法。 仿真 实验 环境 为 : 
Intel Core i5-4210, 操作 系统 为 VMware Ubuntu 
14.0,4 GiB 内 存 , Mininet 版 本 为 2. 3.0, Ryu 4. 34 
以 及 1.3 版 本 的 Openflow 协议 。 

将 拓扑 中 存储 节点 的 个 数 设 为 24, 节 点 中 的 数 
据 采 取 三 副本 法 则 进行 设置 ,网 络 拓扑 采用 无 向 完全 
图 。 模 拟 实验 场景 中 的 异 构 存储 节点 的 处 理 能 力 服 
从 文献 [8], 各 异 构 节 点 性 能 参数 及 其 取 值 范围 为 


ninaX 


40%,20%,10% ,节点 外 ss 9 为 0.3。 设置 
集群 网 络 拓扑 中 各 链 路 的 可 用 带宽 随机 均匀 分 布 在 
50 一 100 Mbit/s, 默 认 链 路 (V; ,Vj) 与 (Vi ,ww ) 相互 
独立 且 大 小 相等 。 

Ceph 集群 中 的 失效 节点 的 数据 修复 考虑 2 种 情 
况 :首先 是 降级 对 象 发 生 在 主 OSD 节点 ,此 时 主 
OSD 通过 Pull 方式 从 2 个 次 OSD 上 拉 取 缺少 的 数 
据 ; 当 次 OSD 存在 降级 对 象 时 , 主 OSD 通过 Push 
ta nh 送 到 相应 的 副本 ,本 实验 中 随 

设 定 故 障 节点 来 模拟 Ceph 集群 中 单 节点 失效 的 
0 算法 分 为 2 个 阶段 ,第 一 个 阶段 为 主 
OSD 的 选择 过 程 ,通过 SDN 获取 异 构 节 点 的 CPU、 
IO 内 存 以 及 芯片 4 个 指标 ,并 将 其 作为 节点 选择 的 
权重 因素 ,使 用 基于 理想 解 的 副本 选择 方法 确定 出 具 
有 最 优 处 理性 能 的 节点 。 第 二 个 阶段 在 第 一 阶段 选 
择 出 主 OSD 基础 上 ,考虑 节点 性 能 以 及 其 与 主 OSD 
之 间 的 网 络 状态 对 数据 修复 时 延 的 影响 ,计算 出 不 同 
候选 节点 的 适应 度 值 ,通过 人 工蜂 群 算法 选择 出 合适 
的 次 OSD 节点 。 算 法 中 涉及 的 参数 如 表 1 所 示 。 


表 1 算法 参数 取 值 


参数 值 
节点 的 数量 24 
可 行 解 维度 2 
只 代 次 数 20 
蜜源 数量 20 
雇佣 蜂 数 量 20 
跟随 蜂 数 量 60 
蜜源 最 大 丢弃 次 数 24 
将 FTNSC 算法 与 Ceph 云 存储 系统 原生 的 


CRUSH 算法 以 及 NSMBD 算法 外 进行 对 比 实验 。 
其 中 ,CRUSH 算法 作为 Ceph 云 存 储 系统 数据 映射 
Ne 点 按 剩 余 存 储 容 量 进行 排 

序 ,选择 存储 容量 性 能 最 优 的 3 个 节点 。NSMBD 是 

-有 台风 名 小 交 件 的 Ceph 存储 系统 节点 选择 

方法 ,其 利用 SDN 获取 集群 中 的 网 络 带宽 性 能 ,并 用 

通 近 理想 解 排序 法 选择 出 性 能 最 优 的 3 个 节点 来 存 

放 数 据 副 本 ,以 提高 读 写 操作 的 吞吐 量 和 响应 时 间 。 

实验 测试 数据 修复 时 延 , 从 所 选 节点 的 CPU IO 内 

存世 片 角度 对 比 3 种 算法 的 性 能 ,每 组 实验 测试 5 

次 , 取 平 均值 作为 实验 结 


3.1 节点 故障 的 数据 修复 时 延 
为 了 测试 3 种 不 同 算法 对 于 不 同 大 小 数据 修复 对 
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象 的 修复 时 延 的 性 能 ,如 图 3 所 示 , 实 验 中 制定 了 50、 
100、150、200、250、300 MB 6 种 对 象 的 工作 量 , 比较 
Ceph 原 有 的 CRUSH 算法 `NSMBD 算法 和 本 算法 在 
不 同 修复 数据 对 象 时 ,完成 故障 节点 数据 修复 的 时 间 。 


5.5 fF | 四 FTNSC 
百 NSMBD 
十 CRUSH 


数据 修复 时 延 /s 


50 100 150 200 250 300 
修复 数据 对 象 大 小 /MB 


图 3 数据 修复 时 延 


3V1 


@ 从 图 3 可 看 出 ,对 于 6 种 不 同 规模 的 修复 数据 ， 
SC 算法 均 拥 有 最 优 修复 时 延 , 且 对 于 200 MB 
以 了 的 小 规模 修复 数据 有 明显 提升 , 当 修 复数 据 的 规 


™ 
™ 国 FTNSC 
ON 80 二 NSMBD 
国 CRUSH 
SO 
N 中 
加 图 绰 40 
后 
0 1 上 
© OSD1 OSD2 OSD3 
全 (a)CPU 性 能 
a 0 征 FTNSC 
O 四 NSMBD 


加 CRUSH 


OSDI1 OSD2 OSD3 


在 节点 的 CPU IO ,芯片 性 能 中 ,FTNSC 算法 所 
选 主 OSD 的 性 能 明显 优 于 CRUSH 算法 和 NSMBD 
算法 ,这 是 由 于 FTNSC 算法 不 仅 考 虑 了 集群 节点 的 
4 种 资源 指标 ,还 分 别 考虑 了 各 个 资源 指标 的 权重 情 
况 ,降低 了 所 选 节点 某 项 资源 指标 性 能 较 差 的 可 能 。 
对 于 次 OSD,FTNSC 算法 在 CPU 性 能 和 IO 速率 上 
表现 较 好 ,但 在 内 存 和 芯片 性 能 上 提升 并 不 明显 。 
Ceph 存储 系统 中 的 2 种 数据 修复 都 依靠 主 OSD 通 


模 大 于 200 MB 时 ,数据 修复 时 延 的 提升 较 小 。 由 于 
CRUSH 算法 选择 集群 中 剩余 容量 性 能 较 优 的 节点 
存储 数据 ,但 在 节点 发 生 失 效 而 进行 数据 修复 时 , 仍 
无 法 避免 较 差 的 网 络 性 能 和 节点 其 他 性 能 的 影响 , 导 
致 修复 时 延 较 大 。 随 着 修复 数据 量 增 大 ,上 述 缺 陷 得 
到 一 定 程 度 的 改善 ,但 CRUSH 算法 的 修复 时 延 在 3 
种 算法 中 仍 最 长 。 在 不 同 的 修复 数据 规模 场景 下 ， 
FTNSC 算法 的 数据 修复 时 延 较 CRUSH 算法 减少 
了 2% 一 29.7%%, 较 NSMBD 算法 减少 了 1.8% 一 
18. 4% ,这 是 由 于 在 实验 场景 中 引用 了 存储 节点 处 理 
能 力 的 异 构 和 拓扑 网 络 状 况 ,为 副本 数据 选择 性 能 最 
优 的 节点 进行 存储 。 


3.2 三 副本 节点 性 能 


图 4 为 在 修复 数据 大 小 为 150 MB, 异 构 节 点 的 
能 力 转 化 系数 为 0.3 时 ,FTNSC 算法 .NSMBD 算法 
和 CRUSH 算法 所 选 OSD 节点 的 CPU、IO、 内 存 及 
芯片 性 能 情况 。 


250 国 FINSC 
下 NSMBD 
加 CRUSH 


IO 速率 (MB/s) 
三 


OSD1 OSD2 OSD3 
(b)IO 速 率 
20 目 FTNSC 
加 NSMBD 


加 CRUSH 


OSD1 OSD2 OSD3 
(d) 芯 片 


过 Pull 或 Push 方式 从 次 OSD 中 选取 一 个 节点 获取 
或 发 送 失 效 数 据 , 因 此 相对 次 OSD 而 言 , 主 OSD 在 
失效 节点 修复 过 程 中 具有 更 加 重要 的 作用 。 在 内 存 
方面 ,CRUSH 算法 性 能 优 于 FTNSC 算法 ,这 是 由 
于 CRUSH 算法 以 内 存 作 为 节点 选择 的 唯一 标准 。 
综合 4 种 指标 ,FTNSC 算法 所 选 节点 的 性 能 优 于 另 
外 2 种 算法 ,使 得 在 发 生 节 点 失效 时 ,节点 具有 更 高 
的 处 理 能 力 , 从 而 减少 数据 修复 的 时 延 。 
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针对 云 存储 系统 中 大 量 使 用 廉价 商用 硬件 引起 
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基于 图 神经 网 络 的 子 图 匹配 符号 算法 
杨 欣 , 徐 周波 ， 陈 浦 青 , 刘 华 东 


(桂林 电子 科技 大 学 计算 机 与 


息 安全 学 院 , 广 西 桂林 541004) 


摘 要 : 子 图 匹配 是 图 数据 分 析 中 的 基础 问题 ,具有 重要 的 研究 意义 。 针 对 子 图 匹配 求解 算法 存在 大 量 元 余 搜索 的 问题 ， 


提出 了 一 种 基于 图 神经 网 络 的 子 图 匹配 符号 算法 。 该 算法 利 上 
性 和 结构 的 特征 向 量 , 以 该 向 量 作 为 过 滤 条 件 得 到 查询 图 的 节点 候选 集 C。 此 外 ,优化 匹配 顺序 并 利用 符号 ADD 操作 在 
数据 图 中 构建 C 的 各 个 候选 区 域 ,减少 了 子 图 枚 举 验证 过 程 中 


地 提高 了 子 图 匹配 的 求解 效率 。 


日 图 神经 网 络 技 术 上 聚合 节点 的 邻 域 信息 ,得 到 包含 图 局 部 属 


的 宛 余 搜索 。 实 验 结果 表明 ,与 VF3 算法 相 比 ,该 算法 有 效 
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Subgraph matching symbol algorithm based on graph neural network 
YANG Xin, XU Zhoubo, CHEN Puqing，LIU Huadong 
> (School of Computer Science and Engineering, Guilin University of Electronic Technology, Guilin 541004, China) 


《 Abstract: Subgraph matching is a fundamental problem in graph data analysis and has important research significance. Ai- 
ng at the problem of a large number of redundant searches in the subgraph matching algorithm, a subgraph matching 
Ymbol algorithm based on graph neural network(SSMGNN) was proposed. The algorithm used the graph neural network 
这 hnology to aggregate the neighborhood information of nodes，and obtained the feature vector containing the local attrib- 


>: fes and structure of the graph, and used the vector as the filter condition to obtain the node candidate set C of the query 


\graph. In addition, optimizing the matching order and using symbolic ADD operations to construct each candidate region of 


_‘E=in the data graph reduced redundant searches during subgraph enumeration verification. The experimental results show 


Nhat, compared with the VF3 algorithm, the algorithm effectively improve the solving efficiency of subgraph matching. 


(Ky words: subgraph isomorphism; graph matching problem; graph neural network; ADD; candidate region 


图 作为 一 种 数据 结构 ,可 以 有 效 刻 画 事物 之 间 的 
关系 ,现实 世界 中 的 许多 复杂 问题 都 可 以 用 图 进行 
象 表示 。 子 图 匹配 问题 作为 图 分 析 中 最 基本 的 问题 
之 一 ,其 目标 是 在 数据 图 g 中 查找 与 查询 图 g 同 构 
的 所 有 子 图 一 ,在 图 像 检索 .化 学 分 子 式 检索 .知识 图 
谱 查 询 和 社交 网 络 分 析 等 领域 有 着 广泛 应 用 。 由 
于 子 图 匹配 问题 属于 NP 难 问题 , 随 着 数据 规模 的 急 
剧 增 加 ,其 求解 的 复杂 度 呈 指数 增长 ,因此 广大 研究 
者 致力 于 扩大 子 图 匹配 问题 的 求解 规模 和 提升 求解 
效率 。 

在 过 去 几 十 年 ,大 量子 图 匹配 算法 被 提出 ,其 中 
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基于 回溯 搜索 的 算法 “中 更 是 被 广泛 研究 。 著 名 的 
Ullmann 算法 中 于 1979 年 提出 ,该 算法 基于 回溯 的 
树 搜索 在 数据 图 g 中 枚 举 出 与 查询 图 9 匹配 的 所 有 
子 图 。 由 于 Ullmann 算法 只 采用 了 简单 的 剪 梳 策 
略 ,无 法 高 效 地 减少 搜索 空间 。VF2 忆 算法 在 Ull- 
mann 算法 的 基础 上 ,将 节点 的 邻居 信息 作为 约束 条 
件 , 增 强 了 剪 枝 效果 ,有 效 地 减少 了 搜索 空间 。 
GraphQL 算法 所 提出 以 查询 图 的 深度 优先 搜索 生成 
树 过 波 数 据 图 中 的 节点 。Spath 算法 门 采用 对 查询 
图 进行 层次 遍历 并 以 每 层 节点 的 信息 作为 约束 条 件 ， 
引入 复杂 的 结构 与 语义 信息 过 滤 数 据 图 中 的 节点 。 
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